智能论文笔记

Fine-tuning Language Models over Slow Networks using Activation Compression with Guarantees

Jue Wang , Binhang Yuan , Luka Rimanic , Yongjun He , Tri Dao , Beidi Chen , Christopher Re , Ce Zhang

分类：机器学习

2022-06-02

沟通压缩是现代分布式学习系统的至关重要技术，可以减轻其在较慢的网络上的交流瓶颈。尽管最近对数据并行式训练的梯度压缩进行了深入的研究，但压缩了通过管道并行性训练的模型的激活仍然是一个空旷的问题。在本文中，我们提出了AC-SGD，这是一种新型的激活压缩算法，用于在慢速网络上进行通信有效的管道并行性训练。 AC-SGD与以前的激活压缩方面的努力不同，而不是直接压缩激活值，而是压缩激活的变化。这使我们能够首次向我们的知识表明，仍然可以实现$ o（1/\ sqrt {t}）$收敛速率，即激活压缩的非convex目标，而无需对梯度做出假设无偏见对于具有非线性激活功能的深度学习模型不符合。然后，我们证明AC-SGD可以有效地优化和实施，而无需额外的端到端运行时开销。我们将AC-SGD评估为微调语言具有高达15亿个参数的模型，将激活压缩至2-4位。AC-SGD在较慢的网络中可提供高达4.3倍的端到端速度，而无需牺牲模型质量。此外，我们还表明，AC-SGD可以与最先进的梯度压缩算法结合使用，以启用“端到端通信压缩：机器之间的所有通信，包括模型梯度，远期激活和后退梯度压缩为较低的精度。这提供了高达4.9倍的端到端加速，而无需牺牲模型质量。

translated by 谷歌翻译

SHiFT: An Efficient, Flexible Search Engine for Transfer Learning

Cedric Renggli , Xiaozhe Yao , Luka Kolar , Luka Rimanic , Ana Klimovic , Ce Zhang

分类：机器学习

2022-04-04

转移学习可以看作是从头开始的数据和计算效率替代培训模型的替代方法。丰富的模型存储库（例如TensorFlow Hub）的出现使从业人员和研究人员能够在各种下游任务中释放这些模型的潜力。随着这些存储库的成倍增长，有效地为手头任务选择一个好的模型变得至关重要。通过仔细比较各种选择和搜索策略，我们意识到，没有一种方法优于其他方法，而混合或混合策略可以是有益的。因此，我们提出了Shift，这是用于转移学习的第一个下游任务感知，灵活和有效的模型搜索引擎。这些属性由自定义查询语言shift-ql以及基于成本的决策者以及我们经验验证的基于成本的决策者启用。受机器学习开发的迭代性质的促进，我们进一步支持对查询的有效递增执行，这需要与我们的优化共同使用时进行仔细的实施。

translated by 谷歌翻译

Evaluating Bayes Error Estimators on Real-World Datasets with FeeBee

Cedric Renggli , Luka Rimanic , Nora Hollenstein , Ce Zhang

分类：机器学习

2021-08-30

贝叶斯错误率（BER）是机器学习中的基本概念，这些概念量化了任何分类器可以在固定概率分布上实现的最佳精度。尽管对BER的下限和上限的建筑估算有多年的研究，但这些通常只比较了具有已知概率分布的合成数据集，留下了两个关键问题：（1）它们在现实世界数据集中执行程度？（2）他们有多实用？回答这些并不琐碎。除了对现实世界数据集未知BER的明显挑战之外，任何BER估算器都需要克服的两个主要方面，以便适用于现实世界的环境：（1）计算和采样复杂度，以及（2）超参数的敏感性和选择。在这项工作中，我们提出了第一个分析和比较任何现代现实世界数据集的BER估计的主要框架，具有未知概率分布。我们通过在一系列不同的噪声水平上注入受控的标签噪声并对一系列不同的噪声水平进行多种评估来实现这一点，这是通过理论结果支持的，这允许借鉴关于BER的演变的结论。通过在6个常用的计算机视觉和NLP域的常用数据集上实施和分析7个多级BER估计，FEYBEE允许对这些估算器进行全面研究，清楚地识别每个的优势和弱点，同时在任何未来的BER估算器上轻松部署。

translated by 谷歌翻译

DataLens: Scalable Privacy Preserving Training via Gradient Compression and Aggregation

Boxin Wang , Fan Wu , Yunhui Long , Luka Rimanic , Ce Zhang , Bo Li

分类：机器学习

2021-03-20

深度神经网络（DNNS）铰接对大型数据集的可用性的最新成功;但是，对此类数据集的培训经常为敏感培训信息构成隐私风险。在本文中，我们的目标是探讨生成模型和梯度稀疏性的力量，并提出了一种可扩展的隐私保留生成模型数据标准。与标准展示隐私保留框架相比，允许教师对一维预测进行投票，在高维梯度向量上投票在隐私保存方面具有挑战性。随着需要尺寸减少技术，我们需要在（1）之间的改进之间导航精致的权衡空间，并进行SGD收敛的放缓。为了解决这一点，我们利用通信高效学习，并通过将顶-K压缩与相应的噪声注入机构相结合，提出一种新的噪声压缩和聚集方法TopAGG。理论上，我们证明了DataLens框架保证了其生成数据的差异隐私，并提供了其收敛性的分析。为了展示DataLens的实际使用情况，我们对不同数据集进行广泛的实验，包括Mnist，Fashion-Mnist和高维Celeba，并且我们表明，DataLens显着优于其他基线DP生成模型。此外，我们改进了所提出的Topagg方法，该方法是DP SGD培训的主要构建块之一，并表明它能够在大多数情况下实现比最先进的DP SGD方法更高的效用案件。我们的代码在HTTPS://github.com/ai-secure/datalens公开提供。

translated by 谷歌翻译

Automatic Feasibility Study via Data Quality Analysis for ML: A Case-Study on Label Noise

Cedric Renggli , Luka Rimanic , Luka Kolar , Wentao Wu , Ce Zhang

分类：机器学习

2020-10-16

在我们与正在使用当今汽车系统的领域专家合作的经验中，我们遇到的一个常见问题是我们所说的“不切实际的期望” - 当用户通过嘈杂的数据获取过程面临非常具有挑战性的任务时，同时被期望实现机器学习（ML）的精度非常高。其中许多是从一开始就失败的。在传统的软件工程中，通过可行性研究解决了此问题，这是开发任何软件系统之前必不可少的一步。在本文中，我们介绍了Snoopy，目的是支持数据科学家和机器学习工程师在构建ML应用之前进行系统和理论上建立的可行性研究。我们通过估计基本任务的不可还原错误（也称为贝叶斯错误率（BER））来解决此问题，这源于用于训练或评估ML模型工件的数据集中的数据质量问题。我们设计了一个实用的贝叶斯误差估计器，该估计值与计算机视觉和自然语言处理中的6个数据集（具有不同级别的其他实际和合成噪声）上的基线可行性研究候选者进行了比较。此外，通过将我们的系统可行性研究和其他信号包括在迭代标签清洁过程中，我们在端到端实验中证明了用户如何能够节省大量的标签时间和货币努力。

translated by 谷歌翻译

TSS: Transformation-Specific Smoothing for Robustness Certification

Linyi Li , Maurice Weber , Xiaojun Xu , Luka Rimanic , Bhavya Kailkhura , Tao Xie , Ce Zhang , Bo Li

分类：机器学习 | 计算机视觉 | (统计)机器学习

2020-02-27

由于机器学习（ML）系统变得普遍存在，因此保护其安全性至关重要。然而，最近已经证明，动机的对手能够通过使用语义转换扰乱测试数据来误导ML系统。虽然存在丰富的研究机构，但为ML模型提供了可提供的稳健性保证，以防止$ \ ell_p $ norm界限对抗对抗扰动，抵御语义扰动的保证仍然很广泛。在本文中，我们提供了TSS - 一种统一的框架，用于针对一般对抗性语义转换的鲁棒性认证。首先，根据每个转换的性质，我们将常见的变换划分为两类，即可解决的（例如，高斯模糊）和差异可解的（例如，旋转）变换。对于前者，我们提出了特定于转型的随机平滑策略并获得强大的稳健性认证。后者类别涵盖涉及插值错误的变换，我们提出了一种基于分层采样的新方法，以证明稳健性。我们的框架TSS利用这些认证策略并结合了一致性增强的培训，以提供严谨的鲁棒性认证。我们对十种挑战性语义转化进行了广泛的实验，并表明TSS显着优于现有技术。此外，据我们所知，TSS是第一种在大规模想象数据集上实现非竞争认证稳健性的方法。例如，我们的框架在ImageNet上实现了旋转攻击的30.4％认证的稳健准确性（在$ \ PM 30 ^ \ CIC $）。此外，要考虑更广泛的转换，我们展示了TSS对自适应攻击和不可预见的图像损坏，例如CIFAR-10-C和Imagenet-C。

translated by 谷歌翻译

Reconstruction and analysis of negatively buoyant jets with interpretable machine learning

Marta Alvir , Luka Grbčić , Ante Sikirica , Lado Kranjčević

分类：机器学习 | (统计)机器学习

2022-11-10

In this paper, negatively inclined buoyant jets, which appear during the discharge of wastewater from processes such as desalination, are observed. To minimize harmful effects and assess environmental impact, a detailed numerical investigation is necessary. The selection of appropriate geometry and working conditions for minimizing such effects often requires numerous experiments and numerical simulations. For this reason, the application of machine learning models is proposed. Several models including Support Vector Regression, Artificial Neural Networks, Random Forests, XGBoost, CatBoost and LightGBM were trained. The dataset was built with numerous OpenFOAM simulations, which were validated by experimental data from previous research. The best prediction was obtained by Artificial Neural Network with an average of R2 0.98 and RMSE 0.28. In order to understand the working of the machine learning model and the influence of all parameters on the geometrical characteristics of inclined buoyant jets, the SHAP feature interpretation method was used.

translated by 谷歌翻译

Active Learning and Approximate Model Calibration for Automated Visual Inspection in Manufacturing

Jože M. Rožanec , Luka Bizjak , Elena Trajkova , Patrik Zajec , Jelle Keizer , Blaž Fortuna , Dunja Mladenić

分类：机器学习 | 人工智能 | 计算机视觉

2022-09-12

质量控制是制造业企业进行的至关重要的活动，以确保其产品符合质量标准并避免对品牌声誉的潜在损害。传感器成本下降和连接性使制造业数字化增加。此外，人工智能可实现更高的自动化程度，减少缺陷检查所需的总体成本和时间。这项研究将三种活跃的学习方法（与单一和多个牙齿）与视觉检查进行了比较。我们提出了一种新颖的方法，用于对分类模型的概率校准和两个新的指标，以评估校准的性能而无需地面真相。我们对飞利浦消费者生活方式BV提供的现实数据进行了实验。我们的结果表明，考虑到p = 0.95的阈值，探索的主动学习设置可以将数据标签的工作减少3％至4％，而不会损害总体质量目标。此外，我们表明所提出的指标成功捕获了相关信息，否则仅通过地面真实数据最适合使用的指标可用。因此，所提出的指标可用于估计模型概率校准的质量，而无需进行标签努力以获取地面真相数据。

translated by 谷歌翻译

Machine learning based surrogate models for microchannel heat sink optimization

Ante Sikirica , Luka Grbčić , Lado Kranjčević

分类：机器学习

2022-08-20

在本文中，使用计算流体动力学研究了具有次级通道和肋骨的微通道设计，并与多目标优化算法耦合，以确定并提出基于观察到的热阻力和泵送功率的最佳溶液。提出了一种结合拉丁超立方体采样，基于机器学习的替代建模和多目标优化的工作流程。在寻找最佳替代物期间，考虑了随机森林，梯度增强算法和神经网络。我们证明了调整的神经网络可以做出准确的预测，并用于创建可接受的替代模型。与常规优化方法相比，优化解决方案在总体性能上显示出可忽略的差异。此外，解决方案是在原始时间的五分之一中计算的。在与对流微通道设计相同的压力极限下，生成的设计达到的温度低于10％以上。当受到温度的限制时，压降降低了25％以上。最后，通过采用Shapley添加说明技术研究了每个设计变量对热电阻和泵送功率的影响。总体而言，我们已经证明了所提出的框架具有优点，可以用作微通道散热器设计优化的可行方法。

translated by 谷歌翻译

Model Predictive Impedance Control with Gaussian Processes for Human and Environment Interaction

Kevin Haninger , Christian Hegeler , Luka Peternel

分类：机器人

2022-08-15

在目标或配置在迭代之间变化的任务中，人机交互（HRI）可以使机器人能够处理可重复的方面，并提供适合当前状态的信息。当前，通过推断人类目标或为了适应机器人阻抗，目前可以实现先进的交互式机器人行为。尽管已经提出了许多针对互动机器人行为的应用程序特定的启发式方法，但它们通常受到范围的限制，例如仅考虑人体工程学或任务绩效。为了提高普遍性，本文提出了一个框架，该框架既计划在线轨迹和阻抗，处理任务和人类目标的混合，并可以有效地应用于新任务。该框架可以考虑多种类型的不确定性：接触约束变化，人类目标的不确定性或任务障碍。不确定性感知的任务模型是从使用高斯流程的一些演示中学到的。该任务模型用于非线性模型预测控制（MPC）问题，以根据对离散人类目标，人运动学，安全限制，接触稳定性和频率障碍抑制的信念来优化机器人轨迹和阻抗。引入了此MPC公式，对凸度进行了分析，并通过多个目标，协作抛光任务和协作组装任务进行了验证。

translated by 谷歌翻译